26.6 일반화 성능 평가: 새로운 튜링 테스트 26.6 일반화 성능 평가: 새로운 튜링 테스트 26.6.1 기존 벤치마크의 한계: 특정 태스크 성공률(Success Rate) 측정의 무의미함 26.6.2 오픈 월드 벤치마크(Open-World Benchmark): SIMA, Voyager 등 게임 환경과 물리 환경의 교차 평가 26.6.3 현실 세계(Real-world) 검증 프로토콜: 로봇의 ’상식’과 ‘물리적 추론’ 능력을 어떻게 측정할 것인가?